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基于 微 博 的 细 粒 度 情 感 分 析 
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摘要 : 【 目的 】 对 微 博 进行 细 粒 度 情感 分 析 , 将 情感 分 为 8 类 , 并 计算 其 情感 强度 值 ， 从 而 尽 可 能 还 原 微 博 用 户 
情感 。 方法 ] 通过 微 博 语 料 分 析 构 建 疑问 词 词 表 , 在 大 连理 工大 学 情感 词汇 本 体 DUTIR 的 7 类 情感 基础 上 , 丰 
富 一 类 情感 “ 疑 ”， 并 利用 点 互信 息 法 构建 表情 符号 词典 ， 还 综合 考虑 否定 词 和 程度 副词 对 情感 表达 的 影响 ,利用 
Python 从 新 浪 微 博 上 获取 数据 , 并 用 及 语言 的 jiebaR 包 进 行 分 词 ， 对 情感 进行 分 类 并 计算 其 强度 。[ 结果 ] 得 到 
微 博 用 户 对 于 糖尿 病 7 类 常用 药物 的 8 类 情感 占 比 及 情感 强度 , 并 通过 正确 率 、 召 回 率 上 值 对 结果 进行 验证 , 其 
中 “她 "和 “ 哀 ” 的 正确 率 最 高 ， 分 别 为 85.73% 和 83.05%， 而 “ 乐 "? 和 “好 ”的 召回 率 与 值 均 最 高 ,为 81% 以 上 。 本 文 
新 增 情感 “ 疑 ” 的 正确 率 、 召 回 率 、F 值 分 别 为 77.33%、78.58%、77.95%, 均值 在 8 类 情感 中 排名 前 列 , 说 明 其 情 
感 识 别 较 好 。[ 局 限 】 由 于 本 文 依赖 于 情感 词典 进行 情感 分 析 ， 因 此 为 了 更 好 的 分 析 结 果 , 情感 词典 仍 需 进一步 
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完善 。[ 结论 】 本 方法 具有 较 高 的 识别 率 和 可 靠 性 , 能 够 更 好 地 对 微 博 上 的 情感 分 类 进行 细 粒 度 分 析 。 


关键 词 : 微 博 ” 细 粒 度 情感 分 析 ”药物 
分 类 号 : TP393 
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中 国 互联 网 络 信 息 中 心 于 2017 年 1 月 发 布 的 《中 
国 互联 网 络 发 展 状况 统计 报告 》 显 示 , 截至 2016 年 12 
月 , 中 国 网 民 规模 达 7.31 亿 , 互联 网 普及 率 为 53.2% 吕 ， 
人 们 对 网 络 的 利用 率 越 来 越 高 。 随 着 Web 3.0 技术 的 
发 展 , 互联 网 上 出 现 了 社区 、 论 坛 、 博 客 、 微 博 等 各 
种 形式 的 社会 化 媒体 平台 , 它们 帮助 用 户 在 网 上 表达 
自己 对 某 一 事件 的 看 法 , 使 人 们 通过 互联 网 相互 影 
响 。 其 中 微 博 (Microblog) 具 有 用 户 多 、 消 息 数量 大 、 
更 新 快 等 特性 , 成 为 人 们 获取 信息 、 发 表 奥 论 的 主要 
途径 , 越 来 越 多 的 明星 、 政 府 机 构 、 企 业 等 也 选择 微 
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我 改进 ， 提 升 市 场 竞 争 力 ， 准 确 地 发 现 并 挖掘 微 博 中 
潜藏 的 商业 价值 和 社会 价值 。 


相关 研究 


微 博 情感 分 析 是 指 通过 分 析 和 挖掘 微 博 中 的 主观 
性 信息 来 判断 其 情感 倾向 。 目 前 国内 已 有 较 多 关于 微 
博 情感 分 析 的 研究 ,， 按 其 粒度 可 划分 为 两 大 类 ， 粗 粒 
度 的 情感 分 析 和 细 粒 度 的 情感 分 析 。 粗 粒度 的 情感 分 
析 主 要 是 基于 篇 章 级 和 句子 级 ， 而 且 在 分 析 过 程 中 仅 
考虑 情感 词 ， 并 未 考虑 评价 对 象 及 其 属性 的 情感 ; 细 
粒度 的 情感 分 析 一 般 指 词汇 级 情感 分 析 ， 目 前 关于 细 
粒度 情感 分 析 的 研究 主要 分 为 两 大 方面 : 一 方面 是 文 


博 进 行 重要 信息 的 发 布 和 传播 , 这 些 信息 充斥 了 大 量 
的 社会 热点 及 情感 。 通 过 对 微 博 用 户 发 布 的 内 容 进 行 
细 粒 度 情感 分 析 ， 尽 可 能 还 原 用 户 真 实情 感 ， 有 助 于 
人 们 及 时 获取 热门 话题 ， 帮 助 控制 社会 与 论 走向 ,也 
有 助 于 对 产品 评论 进行 分 析 , 不 仅 能 够 辅助 用 户 优化 
自身 的 购买 决策 ,还 能 够 帮助 企业 有 针对 性 地 进行 自 


本 中 产品 属性 和 对 应 情感 词 的 抽取 , 另 一 方面 是 对 情 
感 进行 分 类 。 在 产品 属性 的 提取 方面 , 主要 有 三 种 方 
法 , 一 种 是 基于 人 工 定义 的 方法 , 需要 针对 特定 领域 
的 产品 建立 该 领域 的 产品 属性 词汇 表 或 产品 本 体 中 )， 
如 李长江 构建 了 一 个 酒店 领域 的 特征 词典 , 并 在 常用 
的 中 文 情感 词典 的 基础 上 抽取 酒店 领域 评论 中 的 情感 
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词 构建 情感 词典 中 另外 一 种 是 基于 自动 提取 的 方法 ， 
通过 词性 标注 、 句 法 分 析 等 自然 语言 处 理 技术 对 产品 
评论 中 的 语句 进行 分 析 ， 从 中 自动 化 提取 产品 属性 
如 要 治 中 在 依存 句法 分 析 的 基础 上 添加 一 系列 语义 规 
则 , 显著 提高 了 评价 对 象 的 抽取 性 能 外 还 有 一 种 是 
使 用 主题 模型 的 方法 ， 如 彭 云 等 提出 语义 关系 约束 的 
主题 模型 SRC-LDA, 用 来 实现 语义 指导 下 LDA 的 细 
粒度 主题 词 提取 品 。 在 情感 分 类 方面 ,无论 是 粗 粒 度 还 
是 细 粒 度 的 情感 分 析 , 所 用 的 方法 均 可 分 为 三 类 ， 有 
监督 的 机 器 学 习 方 法 、 无 监督 情感 分 析 方 法 和 半 监 督 
情感 分 析 方法 。 有 监督 机 器 学 习 方法 通过 选取 例如 情 
感 词 等 的 情感 分 类 特征 ,通过 分 类 需 完 成 有 监督 的 训 
练 和 测试 。 具 有 里 程 碑 意 义 的 是 Pang 等 应 用 三 个 代表 
性 分 类 器 (支持 向 量 机 SVM、 朴 素 贝 叶 斯 NB、 最 大 痪 
ME) 对 文本 进行 情感 分 类 ,得 出 机 器 学 习 的 文本 情感 
分 类 性 能 较 好 ,可 达到 80% 的 准确 率 吧 ; 还 有 学 者 对 
不 同 的 分 类 算法 进行 比较 , 杨 艳 霞 利用 贝 叶 斯 算法 和 
SVM 分 类 算法 对 微 博 进行 情感 分 析 , 并 比较 了 两 种 算 
法 在 分 类 性 能 上 的 优 劣 ， 从 而 得 出 贝 叶 斯 算法 的 准确 
性 更 高 中 还 有 学 者 对 分 类 算法 进行 改进 ， 从 而 使 分 
类 效果 更 好 ， 陈 炳 丰 等 对 Linear-chain CRF 模型 进行 
改进 , 提出 一 种 双 层 结构 的 CRF 模型 ， 从 而 能 够 更 好 
地 满足 汽车 评论 在 情感 实体 识别 与 情感 倾向 分 类 的 需 
求 巾 , 半 监 督 分 析 方 法 基于 小 部 分 已 标注 数据 集 , 通 
过 对 部 分 无 标注 数据 进行 测试 来 扩大 已 标注 数据 集 规 
模 ， 之 后 进行 迭代 , 逐步 预测 数据 。 朱 晓 光 巴结 合 已 有 
的 标注 集运 用 半 监 督学 习 中 的 主动 学 习 方法 标注 微 博 
文本 的 情感 极 性 和 类 别 ， 以 减少 标注 成 本 ,并 将 标注 
的 数据 集 应 用 于 监督 学 习 中 ; 程 佳 军品: 提 出 基于 半 监 
督 递归 自动 编码 的 微 博 文本 情感 分 类 方法 ， 对 微 博 进 
行情 感 分 析 , 并 在 多 个 数据 集 上 较 基 于 文 持 向 量 机 的 
文本 情感 分 类 方法 取得 了 更 好 的 效果 。 但 由 于 半 监 督 
分 析 方 法 初始 标注 规模 小 ， 其 最 终 学 习性 能 也 持续 前 
弱 ， 因 此 不 具备 高 精度 能 力 。 

由 于 有 监督 学 习 依赖 于 充足 的 标注 语 料 , 但 是 微 
博 这 种 数量 庞大 的 互联 网 文本 导致 人 工 不 能 标注 大 规 
模 的 语 料 ， 其 适用 领域 与 规模 受到 限制 .此 外 ,由 于 微 
博 中 列 含 了 表达 情感 倾向 的 多 种 表情 符 导 和 网 络 用 
语 , 对 其 进行 标注 时 也 容易 受到 符号 变形 、 种 类 的 制 
约 ,， 因此 ,基于 有 监督 方法 的 情感 分 类 并 不 适用 于 微 
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博 , 微 博 中 情感 分 类 的 研究 更 多 倾向 于 没有 标注 样本 
的 无 监督 学 习 方 法 。 

无 监督 情感 分 析 方 法 主要 基于 现 有 的 情感 词典 或 
者 对 已 有 的 情感 词 虹 扩充 来 对 文本 进行 情感 分 析 。 目 
前 有 代表 性 且 使 用 较 广 泛 的 词典 资源 ， 英文 领 域 主要 
有 WordNet、General Inquirer 等 。 中 文 领域 常用 的 情 
感 词典 有 《 知 网 MHowNet)、NTUSD、C-LIWC、DUTIR 
等 。 能 德 兰 等 基于 HowNet 对 句子 的 褒贬 性 进行 了 研 
究 0; 潘 明 慧 等 提出 了 基于 词典 的 方法 识别 出 微 博 表 
达 的 6 种 情绪 中 。 人 情感 词典 扩充 的 方法 主要 分 为 两 部 
分 : 一 部 分 利用 特定 领域 语 料 构建 适用 于 该 领域 的 词 
典 ， 如 肖 江 等 利用 基于 知 网 的 语义 相似 度 算 法 在 
HowNet 的 基础 上 构建 领域 情感 词典 , 使 基础 情感 词 
典 不 适用 于 领域 情感 分 析 的 问题 得 到 一 定 的 改善 
男 一 部 分 通过 计算 未 登录 词 与 已 知情 感 类 别 词 的 语义 
相似 度 来 进行 扩充 ， 如 王 志 涛 等 基于 新 浪 微 博 平台 利 
用 统计 信息 和 点 互信 息 法 识别 新 词 及 情感 标注 ,最终 
构建 了 微 博 新 词 情感 词典 中。 近年 来 ,， 随 着 微 博 情感 
分 析 研 究 的 深入 ,， 越 来 越 多 人 将 目光 转向 其 他 表达 情 
感 的 情感 元 素 的 词典 构建 上 , 例如 张 珊 等 利用 微 博 中 
的 表情 图 片 并 结合 情感 词语 的 方法 构建 了 中 文 微 博 情 
感 语料库 中 王 文 远 等 构建 了 一 种 表情 符号 词典 将 文 
本 分 为 正 负 性 59; 粟 雨 睛 等 构建 了 中 英文 双语 词典 将 
文本 分 为 5 类 情感 ,结果 表明 其 准确 率 高 于 传统 的 分 
类 方法 71。 

虽然 目前 已 有 众多 从 方法 及 应 用 WI 的 角度 对 微 
博 进行 细 粒 度 情 感 分 析 的 研究 , 学 者 们 在 对 文本 中 评 
价 对 象 及 其 特征 和 对 应 的 情感 词 进 行 提 取 方 面 取得 了 
一 定 的 进步 , 但 对 于 情感 的 分 类 多 是 基于 正 负 二 元 、 
或 者 加 上 中 性 三 元 分 类 , 对 于 情感 的 分 类 较 粗 且 没 有 
考虑 情感 强度 。 人 类 情感 复杂 ,对 其 情感 的 分 析 研 究 
不 能 只 停留 在 好 恶 层 面 , 应 尽 可 能 细 分 情感 类 别 并 且 
计算 情感 强度 ， 从 而 在 真实 还 原 人 类 情感 的 基础 上 进 
行 相 关 研 究 。 虽 然 披 茹 一 请、 崔 安 顾 记 等 少数 学 者 也 
将 情感 进行 了 喜 她 误 乐 等 细致 分 类 , 但 是 均 不 涉及 
“ 疑 "这 类 情感 。 对 人 类 情感 的 缺失 识别 并 不 能 满足 人 
们 对 于 情感 分 析 的 需求 。 此 外 ， 人 们 对 于 细 粒 度 情 感 
分 析 的 研究 多 局 限于 情感 分 类 , 并 没有 计算 其 情感 强 
度 值 。 而 情感 必然 会 伴随 着 强 弱 的 表达 , 缺失 了 情感 
强度 值 的 比较 , 情感 分 析 也 并 不 完善 。 因此， 本文 在 对 
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于 微 博 的 情感 进行 情感 分 析 时 , 不 仅 通过 情感 词 词典 
进行 情感 分 类 , 还 考虑 到 同样 具有 情感 表达 作用 的 表 
情 符号 ， 利 用 点 互信 息 法 构建 了 表情 符号 词典 ,在 大 
连理 工 情感 词汇 本 体 库 DUTIR 的 “ 乐 、 好 、 怒 、 亡 

惧 、 恶 、 惊 ”7 类 情感 基础 上 增加 了 “ 疑 "类 情感 , 并 考 
虑 到 程度 副词 与 否定 词 对 于 情感 表达 的 影响 , 将 其 作 
为 影响 因素 对 每 类 情感 的 情感 强度 进行 计算 ， 从 而 更 
细腻 地 分 析 微 博 中 的 情感 ， 有 助 于 人 们 的 后 续 研 究 。 


3 情感 分 析 流程 与 方法 


情感 分 析 流程 
本 文 在 大 连理 工大 学 情感 词汇 本 体 库 的 “ 乐 、 好 、 
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更 准确 地 计算 出 每 类 情感 的 情感 强度 ,还 利用 点 互信 
息 法 (PMD 构 建 了 表情 符号 词典 ， 此外, 还 综合 考虑 了 
否定 词 及 程度 副词 等 修饰 词 对 于 情感 词 的 影响 , 构建 
了 程度 副词 词 表 和 和 否定 词 词 表 ,并 将 其 赋予 一 定 权重 ， 
以 便于 情感 强度 的 计算 。 以 微 博 上 2 型 糖尿 病 7 类 常 
用 药物 数据 为 例 , 利用 Python 从 新 浪 微 博 上 获取 数据 ， 
并 用 及 语言 中 的 jiebaR 包 进 行 分 词 , 结合 所 构建 的 词 
典 , 得 到 微 博 用 户 对 于 药物 的 细 粒 度 情感 分 析 ， 并 利 
用 正确 率 、 召 回 率 以 及 下 值 对 结果 进行 验证 。 此 外 , 为 
了 更 好 地 对 药物 进行 比较 , 利用 R 语言 对 切 词 后 的 数 
据 进 行 统计 ， 得 到 能 够 代表 用 户 所 关心 的 药物 的 高 
频 特 征 ， 并 对 其 进行 情感 分 析 ， 从 而 得 知 用户 对 于 药 


怒 、 哀 、 惧 、 恶 、 惊 "7 类 情感 基础 上 丰富 了 一 类 表示 物 某 类 特征 的 情感 倾向 及 强度 。 微 博 情 感 分 析 流程 如 
疑惑 的 疑 "情感 , 将 用 户 的 情感 分 为 8 类 , 并 且 为 了 ”图 1 所 示 。 
DUTIR 情 感 词典 一 一 


疑问 词 


Python 编程 疏 取 


词 表 


和 每 类 药物 的 情感 倾向 
程度 副词 词 表 一 
Vv | 


药物 微 博 ”一 > 预 处 理 一 > jiebaR 分 词 


一 > 情感 分 析 结果 验证 


高 频 特 征 词 


3.2 ”研究 方法 

(1) 数据 的 获取 与 处 理 

利用 Python 语言 进行 编程 ， 以 完成 整个 数据 的 获取 ， 
获取 字段 包括 微 博文 本 (text)、 评 论 数 (comment)、 转 发 数 
(transfen 、 点 赞 数 (like) 和 用 户 ID(uid)。 

在 大 数据 环境 下 , 微 博 由 于 其 社会 化 媒体 的 特殊 
性 , 其 数据 鱼龙混杂 , 会 影响 情感 分 析 的 结果 ， 因此， 
需要 对 获取 的 微 博 数据 进行 一 些 必 要 的 处 理 。 数 据 清 
洗 规 则 如 下 : 

人 删除 与 目标 内 容 无 关 的 微 博 ; 


@) 员 除 因 转 发 而 重复 疏 取 的 微 博 ， 只 留 取 其 中 一 条 ; 

@@ 改 正 微 博 中 繁体 字 、 错 别 字 等 。 

由 于 情感 分 析 依赖 于 情感 词典 ,因此 必须 对 清洗 
后 的 数据 进行 分 词 。 由 于 R 语言 的 分 词 包 jiebaR 词汇 
量 大 日 一 直 处 于 更 新 状态 中 ， 其 分 词 准确 , 处 理 速 度 
快 , 并 且 能 够 支持 用 户 词典 ， 因此 本 文采 用 jiebaR 作 
为 中 文 分 词 工具 。 

(2) 基于 DUTIR 的 情感 补充 

DUTIR( 中 文 情 感 词汇 本 体 库 ) 是 大 连理 工大 学 信 
息 检索 研究 室 整 理 和 标注 的 一 个 中 文本 体 资源 中 I。 词 
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汇 本 体 中 的 情绪 共 分 为 7 种 : “好 、 乐 、 衣 、 怒 、 惯 、 
恶 、 惊 ”， 共 含有 情绪 词 27 466 个 ,情感 强度 分 为 : 1， 
3, 5, 7, 9 这 5 档 , 9 表示 强度 最 大 , 1 为 强度 最 小 。 该 
资源 从 不 同 角度 描述 一 个 中 文 词汇 或 者 短语 , 包括 
词语 词性 种 类 、 情 感 类 别 、 情 感 强度 及 极 性 等 信息 。 


每 个 词 在 每 一 类 情感 下 都 对 应 一 个 极 性 。 其 中 , 0 代 
表 中 性 ,1 代表 衰 义 , 2 代表 贬义 ,3 代表 兼 有 襄 贬 两 
性 。 为 了 根据 词汇 的 情感 强度 值 计 算 微 博 的 情感 强 
度 , 本 文 将 襄 义 极 性 值 不 变 ， 贬义 极 性 值 取 -1， 如 表 
1 所 示 。 


表 1 情感 词汇 本 体格 式 举 例 


词语 词性 种 类 词义 数 ”词义 序号 ”情感 分 类 强度 极 性 ”辅助 情感 分 类 ”强度 极 性 
无 所 睛 惧 idiom 1 1 PH 7 1 
手头 紧 idiom 1 1 NE 7 0 
周到 adj 1 1 PH 5 1 
言 过 其 实 idiom 1 1 NN 5 | 


DUTIR 将 情感 分 为 7 大 类 21 小 类 , 如 表 2 所 示 。 


表 2 情感 分 类 


编号 情感 大 类 ”情感 类 例 词 


1 未 快乐 (PA) 喜悦 、 欢 喜 、 笑 睐 旺 、 欢 天 喜 地 
2 安心 PE) 踏实 、 宽 心 、 定 心 九 、 问 心 无 愧 
3 苯 敬 (PD) 茶 敬 、 冤 爱 、 毕 茶 毕 敬 、 肃 然 起 敬 
4 赞扬 (PH) 英俊 、 优 秀 、 通 情 达 理 、 实 事 求 是 
5 好 相信 (PG) 信任 、 信 和 有赖 、 可 靠 、 二 良 置疑 

6 喜爱 (PB) 倾 莫 、 宝 贝 、 一 见 钟情 、 爱 不 释 手 
7 祝愿 (PK) 渴望 、 保 优 、 福 寿 绵长 、 万 寿 无 疆 
8 怒 愤怒 (NA) 气愤 、 恼 火 、 大 发 雷霆 、 七 窍 生 烟 
9 悲伤 NB) 忧伤 、 悲 苦 、 心 如 刀 制 、 悲 痛 欲 绝 
10 总 失望 (NJ) 憾事 、 绝 望 、 灰 心 丧 气 、 心 灰 意 冷 
11 次 (NH) 内 次 、 慎 悔 、 过 意 不 去 、 问 心 有 愧 
12 思 (PF) 思念、 相思 、 牵 肠 挂 肚 、 朝 思 莫 想 
13 慌 GND 慌张、 心慌 、 不 知 所 措 、 手 忙 脚 乱 
14 慢 恐惧 (NC) 胆 导 、 害 怕 、 担 惊 受 怕 、 胆 闸 心 惊 
15 差 (NG) ”害羞 、 害 有 操 、 面 红 耳 赤 、 无 地 自 容 
16 烦 间 (NE) 效 间 、 烦 躁 、 心 烦 意 乱 、 自 寻 烦 恼 
17 懂 恶 ND) 反感 、 可 耻 、 恨 之 人 骨 、 深 恶 痛 绝 
18 恶 贬 责 (NN) 有 果 板 、 虚 荣 、 杂 乱 无 章 、 心 狠 手 辣 
19 妒忌 (NK) 眼红 、 吃 醋 、 醋 坛子 、 嫉 贤 妨 能 
20 怀疑 (NL) 多 心 、 生 疑 、 将 信 将 疑 、 疑 神 疑 鬼 
21 惊 惊奇 (PC) 奇怪 、 奇 迹 、 大 吃 一 惊 、 眶 目 结 舌 


人 类 是 不 断 探索 的 生物 , 无 论 是 对 于 他 人 的 咨询 ， 
还 是 对 未 知 世 界 的 探索 , 表达 疑问 、 困 惑 的 “ 疑 "类 情 
感 在 人 类 全 部 情感 中 占有 相当 的 比例 。 尤 其 当今 是 网 
络 时 代 ， 人 们 通过 社会 化 媒体 进行 信息 的 搜寻 或 者 浏 
览 时 , 不 仅 传 统 的 表达 疑问 的 “为 什么 "等 疑问 词 比 比 
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名 是 , 表达 疑问 的 “怎么 破 ” 等 网 络 用 语 也 随处 可 见 。 
由 于 DUTIR 中 没有 表示 疑问 的 词汇 ,而 微 博 中 用 户 表 
达 疑 问 的 情绪 也 较 多 , 因此, 基于 《现代 汉语 词典 》 与 
新 浪 微 博 , 笔者 搜集 构建 了 一 个 常见 疑问 词 词 表 , 共 
52 个 疑问 词 ， 如 表 3 所 示 。 将 其 按照 表达 强 弱 ,分 为 4 
个 等 级 ， 其 极 性 与 情感 强度 值 依据 DUTIR 格式 由 人 工 
标注 , 作为 DUTIR 的 补充 情感 。 其 中 , 由 于 疑问 词 词 
典 是 为 了 分 析 微 博 中 的 疑问 情绪 ， 因 此 ,所 有 疑问 词 
极 性 值 均 取 1, 便于 后 续 计 算 。 
表 3 疑问 词 词 表 


序号 疑问 词 
哪儿 、 哪 里 、 怎 么 样 、 怎 么 着 、 如 何 、 
为 什么 、 难 道 、' 呢 ? '、 吧 ? '、' 啊 ? '、 
1 了 哈 、 为 何 、 怎 么 办 、 哪 些 、 问 题 、 请 问 、 7 1 
为 神 马 、 神 马 情况 、 为 啥 、 干 咏 、 能 和 否 、 
何 时 、 求 问 
谁 、 何 、 什 么 、 神 马 、 几 时 、 怎 么 、 怎 
的 、 怎 样 、 岂 、 何 尝 、 吗 、 么 、 多 大 、 
有 没有 、 会 不 会 、 好 不 好 、 能 不 能 、 可 
不 可 以 、 行 不 行 
几 、 多 少 、 怎 、 难 怪 、 反 个、 何必、 你 
知道 
4 居然、 况 然 、 究 竞 1 1 


强度 值 极 性 值 


(3) 修饰 词 词典 的 构建 

用 户 对 于 情绪 的 表达 往往 不 只 是 含有 情感 词汇 ， 
还 含有 大 量 的 副词 对 情感 词汇 进行 修饰 。 为 了 更 好 地 
识别 微 博 的 情感 及 其 强度 ， 还 需要 构建 程度 副词 和 和 否 
定 词 等 修饰 词 词 表 。 根 据 《 现 代 汉 语词 典 》 以 及 前 人 
研究 5 ， 将 程度 副词 分 为 4 个 等 级 : 极 量 级 、 高 量 级 、 
中 量 级 、 微 量 级 ,并且 参 考 众多 学 者 对 于 程度 副词 权 


值 的 定义 方法 上 ， 最 终 将 程度 副词 的 强度 取 值 范围 

限定 在 [0，2]55,， 按照 4 个 等 级 递减 强度 值 ， 强 度 值 越 

靠近 0, 强度 越 弱 , 反之 则 强度 越 强 。 最 后 构建 了 51 

个 程度 副词 , 44 个 否定 词 ， 如 表 4 和 表 5 所 示 。 
表 4 程度 副词 词 表 

序号 程度 副词 


极 、 极 为 、 极 其 、 透 项 、 极 端 、 项 、 最 、 最 为 、 
绝顶 、 无 比 


多 、 很 、 非 常 、 甚 至 、 十 分 、 太 、 分 外 、 特 别 、 


强度 值 


， ”万 分 、 尤 其、 真 、 格 外 、 何 等 、 过 于 、 多 么 、 15 
更 加 、 更 为 、 更 、 越 加 、 越 发 、 愈 加 、 愈 、 相 
当 、 好 

3 颇 、 挺 、 比 较 、 较 、 较 为 、 较 比 1.2 

4 怪 、 有 点 、 有 点 儿 、 有 些 、 稍 、 稍 稍 、 稍 微 、 05 


稍 许 、 少 许 、 略 、 略 微 


表 5 否定 词 词 表 


否定 词 


白白 、 坪 、 别 、 并 非 、 不 、 不 必 、 不 曾 、 不 可 、 不 要 、 不 用 、 
从 不 、 从 未 、 非 、 毫 不、 毫 无 、 何 必 、 人 和 何曾、 何尝 、 何 须 、 
决 不 、 绝 不 、 绝 非 、 绝 无 、 没 、 没 有 、 莫 、 难 以 、 切 幻 、 尚 
未 、 徒 、 徒 然 、 枉 、 未 、 未 必 、 未 曾 、 未 尝 、 未 有 、 无 从 、 
无 须 、 无 良 、 毋 须 、 毋 庸 、 乡 


(4) 表情 符号 词典 的 构建 

微 博 平 台 上 , 系统 为 用 户 准备 了 丰富 的 表情 符号 
以 表达 他 们 的 情绪 , 人 研究 显示 , 含有 表情 符号 的 微 博 
占 比 约 为 18.73%F5 因此 表情 符号 对 于 微 博 用 户 情 感 
展示 的 作用 不 容 忽视 。 在 爬虫 过 程 中 ,表情 符号 会 转 
变 为 表情 符号 的 alt 标签 所 标记 的 文本 内 容 , 如 图 对 
应 的 为 [哈哈 ]， 优 对 应 的 为 [ 泪 ]。 
虽然 新 浪 微 博 表情 众多 , 但 不 是 每 一 个 都 为 人 们 
和 常用， 因此 本 文选 取 微 博 上 使 用 频率 最 高 的 113 个 表 
情 符号 构建 表情 符号 词典 。 词 典 的 构建 分 为 两 部 分 : 

(将 表情 符号 的 alt 标 签 内 的 词 与 DUTIR 对 应 ， 若 找到 
对 应 , 则 将 该 表情 符号 划分 到 该 情感 词 的 分 类 中 ; 

@) 若 未 找到 对 应 的 表情 符号 ， 则 利用 PMI 法 寻求 与 之 
共 现 频率 最 高 的 情感 词 或 已 知 分 类 的 表情 符号 ， 从 而 将 其 
归 为 一 类 。 

PMI 法 主要 用 于 计算 的 语义 相似 度 ， 基 本 思想 是 
统计 两 个 词语 在 文本 中 同时 出 现 的 概率 ， 如 果 概 率 越 
大 ,其 相关 性 就 越 紧密 ,关联 度 越 高 。 两 个 词语 之 间 ， 
即 wordl 和 word2 之 间 的 PMI 计算 公式 SJ 如 下 。 


{ 生 甘 日 干 || 


广 上 imnnviw 公 人 下 甘 日 二 
Cl IINaX IV 富 和 其 赴 d 
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P 
(wordl&word2) 
PMI rawora?) S log, P P 
(word1)’ (word2) 


其 中 ，PhM1oworul&word2) 表示 两 个 词语 共同 出 现 的 
频率 ，Peworal) 和 Poworaz) 表示 两 个 词 分 别 出 现 的 频 
率 。 若 计算 值 越 大 ,表明 两 个 词语 的 共 现 频率 越 高 , 相 
关 度 越 大 ; 反之 , 则 越 小 .本 文 将 两 个 词语 中 的 一 个 词 
替换 为 表情 符号 的 alt 标签 值 进行 计算 。 
通过 这 两 部 分 筛选 , 113 个 常用 表情 符号 中 , 已 找 
到 对 应 的 有 74 个 , 未 找到 对 应 的 有 39 个 。 因 此 利用 
Python 语言 编程 , 从 新 浪 微 博 上 疏 取 含有 这 39 个 表情 
符号 的 数据 共 为 48 827 条 , 利用 点 互信 息 法 , 得 到 表 
情 符号 词典 如 表 6 所 示 。 


表 6 表情 符号 词典 (部 分 ) 
表情 符号 情感 分 类 表情 符号 情感 分 类 
[doge] 8 抱 抱 
[ 吐 吐 ] 1 坏 笑 1 
[二 哈 1 称 屏 2 
[ 打 脸 ] 4 污 1 
[ 哆 啦 A 梦 笑 ] 1 多 悲 4 
[ 哆 啦 A 梦 汗 ] 7 笑 而 不 语 ] 1 
[ 话 简 ] 2 费解 8 
[ 哆 啦 A 梦 开 心 ] 1 展 悍 2 
[ 笑 cry] 1 并 不 简单 ] 2 
[扒手 ] 8 微笑 1 


最 终 得 到 表情 符号 词典 对 应 情感 分 类 情况 如 表 7 
所 示 。 


表 7 表情 符号 词典 情况 


情感 分 类 表情 符号 量 
乐 [微笑 ][ 哈 哈 ][ 偷 笑 ][ 太 开心 ] 32 
好 [ 爱 你 ][ 亲 素 ][ 辟 掌 ][ 心 ] 31 
妈 怒 ][ 抓 狂 ][ 怒 加] 9 
哀 允 翡 ][ 委 届 ][ 失 望 ][ 翡 伤 ] 14 
慢 害羞 ][ 哆 啦 A 梦 害 怕 ][ 闫 噶 噶 ] 8 
恶 坏 笑 ][ 挖 鼻 ][ 闭 嘴 ][ 名 视 ] 8 
惊 吃惊 ][ 惊 炙 5 
疑 费解 ][ 疑 问 6 
总 计 113 


(5) 微 博 细 粒 度 情感 计算 
在 微 博 数据 获取 过 程 中 , 已 通过 “{…}, ”， 对 每 一 
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条 微 博 进 行 分 割 , 因此 可 将 每 一 条 微 博 看 作 是 一 句 独 
立 的 话 , 将 其 进行 分 词 后 , 依据 已 经 补充 完 的 情感 词 
典 及 构建 好 的 修饰 词 词 表 , 就 可 以 快速 、 精 准 地 运算 
出 微 博 的 情感 倾向 。 本 文中 每 条 微 博 用 Iteml 、 
Item2、…、Itemn 表示 。 由 于 DUTIR 中 有 的 情感 词汇 
不 只 有 一 个 情感 分 类 及 强度 , 因此 ,对 于 该 情感 词 ; 的 
情感 强度 值 , 本文 用 以 下 公式 计算 。 


户 =》o (<k<n,net{,2)) 
天 = 


其 中 , a 为 情感 词 的 情感 强度 值 , 8 为 情感 词 的 极 性 
值 , n 为 情感 词 有 几 类 情感 分 类 , 若 n=1, 则 该 情感 词 只 
有 一 类 情感 , 若 n=2, 则 该 情感 词 有 辅助 情感 分 类 。 

由 于 DUTIR 将 情感 词 分 为 21 小 类 , 而 本 文 只 需 
最 后 判别 出 微 博 情感 的 8 大 类 ,因此 需 要 将 情感 词 的 
情感 分 类 先 归 为 8 大 类 中 的 某 类 , 方法 如 下 。 
_ {x Qubu |< | pr | 

N,| aaa | | op | 

其 中 , M 为 情感 词汇 第 一 个 情感 分 类 ，wkuCu 为 
该 类 别 下 的 情感 强度 值 ，N 为 该 情感 词 的 辅助 分 类 ， 
Qi2Bio 为 该 类 别 下 的 情感 强度 值 -WM 和 N 均 可 通过 计 
算 机 依据 表 2 进行 映射 后 得 到 其 具体 情感 类 别 。 

在 得 到 某 个 情感 词汇 的 情感 分 类 及 情感 强度 值 
后 ,结合 所 构建 的 程度 副词 词 表 和 否定 词 词 表 对 微 博 
进行 情感 分 析 。 虽 然 否 定 词 和 程度 副词 共 现 很 常见 ， 
但 是 二 者 共 现 时 的 位 置 对 于 情感 表达 的 影响 也 应 值得 
注意 上。 情感 词 、 和 否定 词 、 程 度 副词 的 组 合 模式 一 般 
如 表 8 所 示 。 

表 8 含情 感 词 的 组 合 模式 BE 


pi 


局 > 类 型 示例 
1 仅 含 情感 词 热情 
2 否定 词 + 情 感 词 不 热情 
3 程度 副词 + 情感 词 太 热情 
4 否定 词 + 程 度 副词 + 情感 词 不 太 热情 
5 程度 副词 + 和 否定 词 + 情 感 词 太 不 热情 
6 否定 词 + 和 否定 词 + 情 感 词 没有 不 热情 


结合 程度 副词 与 否定 词 , 情感 词 的 情感 值 计算 公 
式 623 如 下 。 
瓦 =(-D4apim 
其 中 , 5 为 情感 词组 合 的 情感 值 , 0; 代 表 组 合 中 否 
定 词 的 数目 , a 代表 组 合 中 程度 副词 的 强度 , m 代表 组 
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合 权 值 , 由 于 组 合 4 的 特殊 性 , 设 组 合 4 的 权 值 为 m=0.4， 
其 他 组 合 权 值 为 m=1, 不 起 加 强 或 削弱 的 作用 中 。 

由 于 含有 表情 符号 的 微 博 占 比 为 18.73%, 约 为 
20%， 因 此 将 表情 符号 词典 的 权 值 赋值 为 0.2, 每 条 
微 博 中 某 j 类 情感 的 表情 符号 数目 为 % 考虑 到 表情 
符号 前 也 有 可 能 有 否定 词 和 程度 副词 的 修饰 , 则 每 
条 微 博 中 表情 符号 所 表达 的 该 类 情感 的 强度 值 计算 
公式 如 下 。 

Eo = 0.20(-D2 asms, 

则 每 条 微 博 中 某 j 类 情感 的 强度 值 计算 公式 如 下 ， 

其 中 N 为 情感 词 数 目 。 


N 
E; = 5, 生 Eonoji 
| 


最 终 , 该 条 微 博 的 情感 分 类 为 |B, |aax 所 属 那 类 
情感 ， 强 度 值 E=1 Ej wo -|Ej lel， 值 的 符号 同 


| 五 |max 。 

由 于 社会 化 媒体 互动 性 强 的 特征 ,每 条 微 博 通常 
会 有 评论 、 点 赞 和 转发 ， 这些 行为 在 一 定 程度 上 也 代 
表 了 该 条 微 博 所 表达 情感 的 强度 ,因此 本 文 赋予 其 权 
值 如 下 : 评论 数 x=0.02， 点 赞 数 y=0.1, 转发 数 二 0.2， 
综 上 所 述 , 则 每 条 微 博 Item 的 情感 值 计算 公式 如 下 。 

Erm = Ex(l+0.02x+0.1y+0.22) 


ltem 


4 实证 研究 


4.1 数据 收集 与 预 处 理 

网 络 购物 已 成 为 当今 社会 主流 的 购物 方式 , 而 随 
着 社会 化 媒体 技术 的 进步 ， 人们 更 倾向 于 在 购物 时 参 
考 他 人 对 商品 的 评论 以 进行 决策 制定 。 当 今 社会 医药 
市 场 不 断 发 展 , 治疗 同一 疾病 的 药物 数量 众多 、 种 类 
繁杂 , 因此 如 何 进 行 药物 的 选 购 是 一 个 或 待 解决 的 问 
题 。 微 博 已 成 为 人 们 交流 信息 的 首选 平台 ， 人 们 在 这 
里 分 享 自 己 或 亲人 、 朋 友 的 用 药 体 验 , 形成 来 自用 户 
的 用 药 反 应 的 第 一 手 资料 。 通 过 对 微 博 平台 上 的 药物 
相关 微 博 进 行情 感 分 析 , 不 仅 有 助 于 为 用 户 选 购 药品 
提供 可 靠 的 参考 , 也 有 助 于 医药 企业 及 时 获取 消费 者 
对 其 产品 的 评价 , 以便 发 现 产品 的 不 足 之 处 ,采取 有 
效 措施 提高 药品 质量 , 形成 一 个 良好 的 评价 信息 系 
统 。 现 代 社 会 人 们 的 生活 模式 发 生 了 巨大 改变 , 糖尿 
病 发 病 率 逐 年 上 升 。 资 料 显示 , 2 型 糖尿 病 的 发 病 呈 逐 
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渐 加 重 的 流行 趋势 , 并且 儿童 以 及 青少年 2 型 糖尿 病 表 9 药品 数据 
发 病人 数 近 年 来 迅速 上 升 门 。 本 文 使 用 Python 语言 种 类 名 称 数量 。 ”总计 
\ 半 全 新 浪 微 博 平台 簿 > > k 二 甲 双 肽 248 
进行 编程 ， 从 新 浪 微 博 平台 息 取 微 博 用 户 所 发 表 的 2 双 肽 类 口服 降 糖 药 oa 5 
型 糖尿 病 的 7 类 常用 药品 相关 微 博 进行 分 析 , 分 别 是 格 华 止 、 美 迪 康 105 
8 Ss | 格 列 吡 嗪 119 
双 肘 类 口服 降 糖 药 、 磺 脲 类 口服 降 糖 药 、 非 磺 脲 类 口 磺 服 类 口服 降 粮 药 。 咒 易 宁 了 166 
po er 起 和 J 
服 降 糖 药 、o 葡萄 糖苷 酶 抑制 剂 、 胰 岛 素 增 敏 剂 、 瑞 格 列 奈 je 
DPP-4 抑制 剂 、 复 方 制剂 。 分 别 选 取 每 一 类 药物 的 非 磺 逐 类 口服 降 粮 药 诺 和 龙 41 203 
药品 名 称 作 为 关键 词 , 候 取 内 容 包 括 微 博文 本 (text) | 阿 卡 波 糖 172 ee 
0 J 
及 其 评论 数 (commenb 、 转 发 数 (transfer)、 点 赞 数 拜 糖 平 88 
(like)、 用 户 ID(uid)， 进行 清洗 后 数据 为 1 704 条 ,如 胰岛 素 增 敏 剂 罗 格 列 酮 61 D0 
文 迪 雅 144 
表 9 所 示 。 i 格 列 汀 186 
DPP-4 抑制 剂 305 
4.2 ”数据 结果 分 析 制 间 捷 诺 维 119 
通过 上 述 情 感 分 析 方 法 对 所 获取 的 1 704 条 关于 复方 制剂 消 渴 丸 212 212 
2 型 糖尿 病 7 种 药物 的 微 博 进行 分 析 , 结果 如 图 2 所 示 。 总 计 1704 
向) 别 双 且 类 口服 降 糖 药 磺 腺 类 口服 降 糖 药 非 磷 脲 类 口服 降 糖 药 a 葡萄 糖苷 酶 抑制 剂 胰岛 素 增 敏 剂 DPP-4 抑 制剂 复方 制剂 
条 数 分 值 ”均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 条 数 分 值 均值 百分比 
乐 19 212 11.158 8.12 导 55 6.111 8.3 6 22 3.667 1.63 10 3 0.3 0.2 30 430 14.333 38.15 20 267 13.35 14.34 16 276 17.25 17.57 
好 129 1368 10.605 52.38 30 101 3.367 15.21 77 595 7.727 43.98 75 570 7.6 37.19 49 336 6.857 29.82 113 1077 9.531 57.86 65 602 9.262 38.32 
怒 p -14 -14 0,54 和 2.5 2.5 0.38 0 0 0 0 0 0 0 0 0 0 0 0 2 6 3 0.32 | 3 2.333 0.45 
说 了 -18 |-2.571| 0.69 4 -12.5 -3.125 1.9 0 0 0 0 8 -35 -4.375 2.28 4 8 2 0.71 8 -35 -4.375 1.88 8 -39 -4.875 48 
悍 5 = 振 =3.2 0.61 2 -4 -2 0.6 0 0 0 0 1 =6.5 | “6.5 | D42 4 -38 | -9.5 3.37 2 |=11,5|=5.,76| 0,862 1 = 站 -6 0.38 
恶 39 -261 -6.692 9.99 24 -128 -5.333 19.31 30 -176 -5.867 13 48 -218.4 -4.55 14.25 24 -56 -2.333 4.97 22 -102.5-4.659 5.51 55 -262 -4.764 16.68 
惊 0 0 0 0 0 0 0 0 0 0 0 0 4 24.5 6.125 1.6 . 10 10 0.89 a 11 41 0. 59 0 0 0 0 
疑 64 722.5 11.289 27.67 43 360 8.372 54.3 53 560 10.566 41.39 71 675.4 9.513 44.1 29 249 8.586 22.09 35 351.5 10.042 18.88 36 379 10.528 24.12 
总 计 264 2611.5 9. 892 1 113 663 5.867 1 166 1353 8.151 二 217 1532.8 7.064 1 141 "1127 7.993 一 203 1861.5 9.17 1 184 1571 8.538 bh 


图 2 2 型 糖尿 病 7 类 药物 情感 分 析 
( 注 : 条 数 = 清洗 后 微 博 条 数 -情感 值 为 0 条 数 ; @ 均 值 指 的 是 情感 强度 均值 ,计算 方式 为 分 /条 数 ; @ 百 分 比 为 各 情感 分 值 占 总 情感 值 


的 百分比 。) 


由 于 各 类 药物 获取 的 微 博 数 目 不 一 , 仅 从 情感 强 
度 值 比较 分 析 情 感 倾向 有 失 偏 颇 , 因此, 图 2 中 给 出 
情感 强度 均值 。 横 向 比较 来 看 , 微 博 用 户 对 于 2 型 糖 
尿 病 7 类 药物 的 情感 ， 以 “ 怒 ”" 最 少 , 对 双 肌 类 口服 降 
糖 药 呈 现 出 “不 怒 ” 这 个 情感 ;“ 乐 "和 “好 ”的 情感 比较 
多 且 强 烈 ,“ 衣 ”和 “ 悍 " 类 虽 也 占有 一 定 比重 , 但 除了 胰 
岛 素 增 敏 剂 的 “ 户 ” 为 正 值 外 ,其 余 均 为 负 值 或 零 , 说 
明 一 部 分 用 户 对 这 些 类 药物 既 不 喜欢 也 不 讨厌 , 对 于 
这 部 分 用 户 , 药 企 可 有 针对 性 地 进行 关注 , 努力 将 其 
转化 为 积极 情绪 ; 值得 一 提 的 是 , 各 类 药物 中 “ 疑 " 的 
情感 占 比 并 不 少 , 说 明 人 们 对 7 类 药物 均 存 在 一 定 的 
疑问 ; 对 于 “ 惊 * 这 类 情感 ,7 类 药物 中 呈现 两 极 分 化 ， 
有 的 药物 为 0, 非 0 药物 则 情感 强度 值 较 大 。 此 外 , 双 
肢 类 口服 降 糖 药 的 情感 微 博 条 数 最 多 ,可见 人 们 对 双 
肢 类 口服 降 糖 药 情感 丰富 , 且 强 度 较 大 , 说 明 人 们 讨 
论 该 类 药物 较 其 他 药物 频繁 , 情感 表达 丰富 。 


囊 


根据 8 类 情感 所 占 的 百分比 绘制 成 图 , 可 以 清晰 
地 显示 人 们 对 7 类 药物 的 情感 倾向 ， 如 图 3 所 示 。 


复方 制剂 

DPP-4 抑 制剂 EE 划 | 
胰岛 素 增 敏 州 “IE 

a 葡萄 糖 芷 酶 抑制 家 
非 碟 及 类 口服 降 六 药 Escal 
磺 腺 类 口服 隆 粮 药 到 玫 
双 肛 关口 服 降 闹 艺 Egg 


0% 20% 40% 60% 80% 100% 
日 乐 上 好 日 既 m 哀 日 惧 日 恶 日 惊 a 疑 


图 3 7 类 药物 情感 倾向 分 布 
由 图 3 可 知 ,， 双 肘 类 口服 降 糖 药 、 胰 岛 素 增 敏 剂 、 
DPP-4 抑制 剂 及 复方 制剂 的 “ 乐 " 和 “好 ”情感 占 比 较 高 ， 
说 明 微 博 用 户 比较 偏爱 于 这 4 类 药物 ,其 中 DPP-4 抑 
制剂 居 首 ; 对 复方 制剂 、 非 磺 脲 类 口服 降 糖 药 、a 葡萄 
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糖苷 酶 抑制 剂 和 磺 脲 类 口服 降 糖 药 的 “ 恶 ” 的 情感 占 比 
较 高 ; 对 复方 制剂 、a 葡萄 糖 背 酶 抑制 剂 、DPP-4 抑制 
剂 和 磺 脲 类 口服 降 糖 药 的 “ 哀 "情感 占 比较 高 ,说 明 人 
们 对 复方 制剂 、c 葡萄 糖苷 酶 抑制 剂 和 磺 脲 类 口服 降 
糖 药 这 三 类 药物 持 消极 态度 较 多 ; 与 此 同时 可 以 看 出 
人 们 对 DPP-4 抑制 剂 的 评价 呈现 两 极 分 化 ,对 复方 制 
剂 这 类 药物 情感 种 类 丰富 ， 占 比 也 较 多 , 说 明 人 们 对 
其 争议 较 大 ; 胰岛 素 增 敏 剂 的 “ 惧 ” 占 比 最 高 ; 而 各 类 
药物 的 “ 疑 ” 占 比 均 不 低 ， 以 磺 脲 类 口服 降 糖 药 居 首 ， 
说 明 人 们 对 于 磺 脲 类 口服 降 糖 药 的 了 解 不 如 其 他 药 
物 , 不 确定 性 较 多 ， 药 企 可 着 重 努 力 改善 。 

在 利用 jiebaR 包 对 数据 进行 分 词 后 ,对 切 词 结 
按照 词 频 排 序 ， 并 将 一 些 无 意义 的 词 过 滤 掉 ， 最终 找 
出 频次 大 于 等 于 20 的 特征 词 , 共 17 个 , 如 表 10 所 示 。 
表 10 高 频 特 征 词 表 


序号 ”特征 词 。 词 频 序号 ”特征 词 ” 词 频 
1 糖尿 病 145 10 ”服药 29 
2 患者 121 11 ”第 一 28 
3 民用 89 12 ”和 餐 前 26 
4 ”治疗 84 13 ”和 餐 后 25 
5 ， 降 糖 药 76 14 ”用 药 25 
6 夷 岛 素 59 15 ”长 生 不 老 21 
7 口服 55 16 ”副作用 20 
8 低 血糖 50 17 ” 首 例 20 
9 ” 餐 后 血糖 35 


由 表 10 可 知 ， 人 们 对 于 2 型 糖尿 病 药物 多 关心 其 
类 似 于 “服用 ”、“ 口 服 ”、“ 餐 前 ”、“ 餐 后 "等 服用 方法 以 
“副作用 ”、“ 低 血糖 ” 竺 药物 的 副作用 。 此 外 ,还 讨论 
了 药物 疗效 之 外 的 对 人 们 有 利 的 作用 诸如 “长 生 不 老 ” 
等 。 为 了 更 进一步 了 解 人 们 对 于 这 些 高 频 特征 词 的 情 
感 倾向 , 本 文 分别 将 包含 每 一 个 高 频 词 的 微 博 数据 提 


100%— 本 
90% 


疑 = 惊 9 恶 a 惧 a 启 a 婚 a 好 s 乐 
图 4 高 频 特 征 情感 分 布 比例 


物 相关 的 情感 并 没有 人 愤怒 的 情绪 在 里 面 ;“ 好 ” 占 比 最 
多 的 特征 是 “ 首 例 "“ 长 生 不 老 ”, 说 明 人 们 对 于 2 型 糖 
尿 病 药物 的 首要 地 位 是 认可 的 , 对 2 型 糖尿 病 药物 能 
使 人 延长 寿命 这 一 特点 多 数 持 积 极 态 度 , 但 也 存在 少 
部 分 的 怀疑 ; 对 于 服药 方法 中 “口服 ”的 情感 倾向 也 好 
过 其 他 的 服药 方法 。“ 恶 ”的 占 比 前 三 是 “ 降 糖 药 "、“ 患 
者 ”"“ 和 餐 后 血糖 ” 说 明 人 们 仍然 对 患 有 2 型 糖尿 病 的 
患者 需 服 用 降 糖 药 的 事实 比较 反感 ， 对 监测 餐 后 血糖 
这 种 行为 比较 厌恶 ;“ 惧 ”的 占 比 最 高 的 是 “治疗 ”和 "“ 降 
糖 药 ”“ 哀 "最 高 的 是 “ 低 血 糖 ” 可 知 纵然 治疗 2 型 糖 
尿 病 的 药物 众多 ， 人 们 还 是 对 降 糖 药物 存在 一 些 臣 惧 ， 
在 药物 引起 的 副作用 中 对 低 血 糖 最 为 反感 ; 横向 比较 
来 看 ， 对 于 “服用 ”“ 口 服 ”"“ 和 餐 前 ”“ 餐 后 "这 种 表达 
药物 服用 方式 的 词汇 人 们 的 情感 "好 ”的 占 比 有 绝对 
优势 , 说 明 人 们 谈 及 2 型 糖尿 病 药 物 时 ， 更 喜欢 讨论 
其 服用 方法 。 
4.3 数据 结果 验证 

为 了 验证 本 文 提 出 的 情感 分 析 方法 的 有 效 性 , 选 
取 三 名 工作 人 员 对 数据 进行 人 工 标注 ,其 中 两 人 及 以 
上 标注 结果 相同 的 记录 在 案 , 标注 结果 不 同 的 , 三 人 


取出 来 , 再 次 进行 情感 分 析 。 值 得 一 提 的 是 ， 由 于 中 文 
的 复杂 性 , 微 博 中 与 高 频 词 表达 同一 意思 的 词 仍 有 许 
多 , 因此 在 采集 微 博 数据 时 ,将 特征 词 的 不 同 表达 词 
汇 也 扩展 进来 ,使 关于 特征 的 情感 更 为 可 靠 。 情 感 分 
析 结 果 如 图 4 所 示 。 

由 图 4 可 知 , 人们 谈论 药物 时 的 总 体 情感 主要 是 
“好 ”和 “ 疑 ", 其 次 是 “ 乐 ”, 除 合 有 疑问 的 情绪 外 ,对 于 
药物 的 总 体 情感 较 倾 向 于 乐观 ; 17 个 高 频 特征 词 中 均 
不 存在 “ 怒 ”, 说 明 在 2 型 糖尿 病 药物 中 ， 人 们 对 于 药 


哆 洲 数据 分 析 与 知识 发 现 


商量 之 后 决定 结果 。 将 自动 分 析 的 7 类 药物 情感 分 类 
结果 与 人 工 标注 的 情感 分 类 结果 进行 对 比 。 

评价 指标 采用 目前 广泛 接受 的 正确 率 (Precision) 
和 召回 率 (Recall)), 选用 综合 度量 指标 F 值 (F) 作 为 
Precision 和 Recall 两 者 的 调和 平均 数 来 衡量 人 评估 分 
析 的 正确 率 。 它 们 的 计算 公式 如 下 所 示 。 
判断 正确 的 该 类 别 微 博 数 
判断 为 该 类 别 的 微 博 数 
判断 正确 的 该 类 别 微 博 数 
应 判断 为 该 类 别 的 微 博 数 


Precision= 


Recall= 
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_ 2x Precision x Recall 


Precisiont+Recall 


实验 结果 如 表 11 所 示 。 
表 11 实验 性 能 评估 分 析 


情感 类 别 Precision Recall F 
乐 79.00% 83.15% 81.02% 
好 77.18% 85.56% 81.15% 
既 85.73% 38.83% 53.45% 
良 83.05% 35.65% 49.89% 
慢 53.42% 47.12% 50.07% 
恶 64.67% 66.96% 65.80% 
惊 54.58% 33.37% 41.42% 
疑 77.33% 78.58% 77.95% 


实验 结果 表明 ,本 文 方法 的 正确 率 、 召回 率 以 及 F 
值 均 较 高 ,其 中 “经 "和 “ 亡 ” 正 确 率 最 高 ， 而 “ 乐 " 和 “好 ” 
的 召回 率 与 F 值 均 最 高 ,说 明 识别 负面 情绪 的 准确 率 
较 高 ， 而 识别 正面 情绪 的 可 靠 度 要 高 一 些 。 本 实验 主 
要 依赖 于 情感 词典 ， 而 情感 词典 的 8 类 情感 词 的 多 少 
也 是 影响 实验 结果 的 关键 因素 , 所 以 应 该 尽 可 能 地 丰 

感 


富 情感 词典 ,减少 对 实验 的 影响 。 


结 语 


a 


微 博 的 流行 使 得 其 中 蕴含 了 丰富 的 情感 信息 , 通 
过 对 微 博 上 的 用 户 生成 内 容 进行 情感 分 析 ， 可 以 挖掘 
其 中 的 商业 价值 和 社会 价值 。 目 前 , 情感 分 析 领 域外 
研究 多 是 将 情感 进行 正 负 二 元 分 类 , 或 是 加 上 中 性 三 
元 分 类 ,很 少 更 细致 地 划分 情感 类 别 , 也 没有 考虑 情 
感 的 情感 强度 。 本 文 针 对 人 类 情感 复杂 的 特点 ,在 
DUTIR 情感 词汇 本 体 库 的 7 类 情感 基础 上 丰富 了 一 类 
占 比较 多 的 情感 “ 疑 ”, 通过 语 料 分 析 及 词典 查阅 构建 
了 疑问 词 词 表 以 此 对 DUTIR 进行 扩展 ,让 情感 分 类 得 
更 细腻 ,同时 考虑 了 表情 符号 对 于 情感 表达 的 影响 ， 
构建 了 表情 符号 情感 词典 , 参照 表情 符号 在 微 博 中 的 
占 比 赋予 其 权 值 ， 此外, 还 构建 了 否定 词 词 表 与 程度 
副词 词 表 辅 助 情感 分 析 ， 有 助 于 更 准确 地 计算 情感 值 ， 
从 而 得 到 每 一 类 别 情感 的 强度 值 , 便于 对 其 进行 比较 
分 析 。 

此 外 ,针对 微 博 的 情感 分 析 多 应 用 于 酒店 、 汽 车 
等 商务 领域 , 在 药物 方面 的 研究 较 少 ,因此 本 文通 过 
对 2 型 糖尿 病 药 物 进行 细 粒 度 情 感 分 析 , 不 仅 得 到 了 
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人 们 对 于 7 类 药物 的 情感 分 类 及 强度 ,也 得 到 了 人 们 
对 于 药物 的 哪 种 属性 最 为 关心 , 从 而 可 为 2 型 糖尿 病 
的 药物 选择 提供 参考 ， 由 本 文 结果 可 以 得 知 二 甲 双 肢 
类 药物 最 为 领先 , 不 仅 所 含情 感 丰富 , 积极 方面 的 情 
感 也 最 多 。 其 余 各 个 药物 均 有 自身 的 特点 , 各 有 所 长 。 


[1] CNNIC. 第 39 次 中 国 互联 网 络 发 展 状况 统计 报告 [R]. 中 
国 互联 网 络 信息 中 心 , 2017. (CNNIC.The Report of The 39™ 


China Internet Development Statistics[R]. Information Center 
of the China Internet Network, 2017.) 

[2] 蓝天 广 . 电子 商务 产品 在 线 评论 的 细 粒 度 情感 强度 分 析 
[D]. 北京 : 北京 邮电 大 学 ，2015. (Lan Tianguang. 


Fine-Grained Sentiment Analysis of E-Commerce Online 


Reviews [D]. Beijing: Beijing University of Posts and 
Telecommunications, 2015.) 

[3] ”李长江 . 基于 酒店 中 文 评论 情感 倾向 分 析 [D]. 广州 : 华南 
理工 大 学 , 2016. (Li Changjiang. Text Sentiment Polarity 


Analysis Based on Chinese Reviews in Hotel Domain [D]. 

Guangzhou: South China University of Technology, 2016.) 
[4]” 贾 治 中 . 基于 依存 句法 分 析 的 中 文 评价 对 象 抽取 和 情感 倾 

向 性 分 析 [D]. 南京 : 东南 大 学 , 2016. (Jia Zhizhong.Chinese 


Opinion Target Extraction and Orientation Analysis Based on 


Syntactic Dependencies [D]. Nanjing: Southeast University， 
2016.) 

[5] ” 彭 云 , 万 常 选 , 江 腾 蛟 , 等 . 基于 语义 约束 LDA 的 商品 特 
征 和 情感 词 提 取 [J]. 软件 学 报 , 2017, 28(3): 676-693. (Peng 


Yun, Wan Changxuan, Jiang Tengjiao, et al. Extracting 


Product Aspects and User Opinions Based on Semantic 
Constrained LDA Model[J]. Journal of Software, 2017, 28(3): 
676-693.) 

[6] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment 
Classification Using Machine Learning Techniques[C]// 
Proceedings of the ACL-02 Conference on Empirical 
Methods in Natural Language Processing, Philadelphia. USA: 
Association for Computational Linguistics, 2002: 79-86. 

[7] 杨 艳 霞 . 基于 分 类 的 微 博 情感 分 析 算 法 研究 及 实现 [J]. 计 
算 机 与 数字 工程 , 2017, 45(2): 197-200, 396. (Yang Yanxia. 


Microblog Sentiment Analysis Algorithm Research and 
Implementation Based on Classification [J]. Computer & 
Digital Engineering, 2017, 45(2): 197-200, 396.) 

[8] 陈 炳 丰 , 郝 志峰 ， 葡 瑞 初 ， 等. 面向 汽车 评论 的 细 粒 度 情 
感 分 析 方 法 研究 [可 . 广东 工业 大 学 学 报 , 2017, 34(3): 8-14. 
(Chen Bingfeng, Hao Zhifeng, Cai Ruichu, et al. A 


Data Analysis and Knowledge Discovery 


ChinaXiv 合 作 期 刊 


_ 人 2# 辑 


[9] 


[10] 


[11] 


[13] 


[14] 


[15] 


[16] 


Fine-grained Sentiment Analysis Algorithm for Automotive 
Reviews [J]. Journal 
Technology, 2017, 34(3): 8-14.) 
朱 晓 光 . 基于 半 监 督学 习 的 微 博 情感 分 析 方 法 研究 [D]. 济 


南 : 山东 财经 大 学 ,2014. (Zhu Xiaoguang. Research on 


of Guangdong University of 


Microblog Sentiment Analysis Based on Semi-supervised 
Learning [D]. 
Economics, 2014.) 

程 佳 军 . 基于 半 监 督 递归 自动 编码 的 微 博 情 感 分 析 方 法 研 
究 [D]. 长 沙 : 国防 科学 技术 大 学 ，2014. (Cheng Jiajun. 


Research on Sentiment Analysis of Microblog Based on 


Jinan: Shandong University of Finance and 


Semi-suprvise Recursive Auto Encoder [D]. Changsha: 


National ee of Defense Technology, 2014.) 

， 程 菊 明 ,， 田 胜利 . 基于 HowNet 的 句子 讲 贬 倾向 性 
研究 [四 . 计算 机 工程 与 应 用 , 2008, 44(22): 143-145. (Xiong 

Delan，Cheng Juming，Tian Shengli. 


台所 广 
能 德 兰 


Sentence _ Orientation 
Research Based on HowNet[J]. 
Applications, 2008, 44(22): 143-145.) 

潘 明 慧 ， 牛 耘 . 基于 多 线索 混合 词典 的 微 博 情 绪 识 别 []. 
计算 机 技术 与 发 展 , 2014, 24(9): 28-32, 36. (Pan Minghui, 


Niu Geng. Emotion Recognition of Micro-blogs Based on a 


Computer Engineering and 


Hybrid Lexicon[J]. Computer Technology and Development, 
2014, 24(9): 28-32, 36.) 

肖 江 , 丁 星 , 何 羔 杰 . 基于 领域 情感 词典 的 中 文 微 博 情感 
分 析 [J]. 电子 设计 工程 ,2015, 23(12): 18-21. (Xiao Jiang, 
Ding Xing, He Rongjie. Analysis of Chinese Micro-blog 


Emotion Which Based on Field of Emotional Dictionary[J]. 
Electronic Design Engineering, 2015, 23(12): 18-21.) 

王 志 涛 , 於 志 文 ， 郭 斌 ,等 . 基于 词典 和 规则 集 的 中 文 微 
博 情感 分 析 [ 四 . 计算 机 工程 与 应 用 ，2015，51(8): 218-225. 
(Wang Zhitao，Yu Zhiwen，Guo Bin， 


et al. Sentiment 
Analysis of Chinese Micro Blog Based on Lexicon and Rule 
Set[J]. Computer Engineering and Applications, 2015, 51(8): 
218-225.) 

张 册 ， 于 留 宝 , 胡 长 军 . 基于 表情 图 片 与 情感 词 的 中 文 微 
博 情感 分 析 [ 相 . 计算 机 科学 , 2012, 39(11A): 146-148, 176. 
(Zhang Shan, Yu Liubao, Hu Changjun. Sentiment Analysis 


of Chinese Micro-blogs Based on Emoticons and Emotional 
Words[J]. Computer Science, 2012, 39(11A): 146-148, 176.) 

王 文 远 , 王 大 玲 , 冯 时 , 等 . 一 种 面向 情感 分 析 的 微 博 表 
情 情感 词典 构建 及 应 用 [J]. 计算 机 与 数字 工程 ，2012， 
40(11): 6-9. (Wang Wenyuan, Wang Daling, Feng Shi, et al. 


An Approach of Building Microblog Smiley Emotion Lexicon 
and Its Application for Sentiment Analysis[J]. Computer & 
Digital Engineering, 2012, 40(11): 6-9.) 


数据 分 析 与 知识 发 现 


[17] 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


粟 雨晴 ,， 礼 砍 ， 昔 晚 ， 等 . 基于 双语 词典 的 微 博多 类 情感 
分 析 方 法 [J]. 电 子 学 报 ，2016，44(9): 2068-2073. (Li 
Yuqing, Li Xin, Han Xu, et al. A Bilingual Lexicon-Based 


Multi-class Semantic Orientation Analysis for Microblogs[J]. 
Acta Electronica Sinica, 2016, 44(9): 2068-2073.) 

何 文 娟 . 微 博 情 感 营 销 对 消费 者 购买 意愿 的 影响 研究 [D]. 
合肥 : 安徽 大 学 ，2016. (He Wenjuan. Research on the 
Influence of Microblog-Based Emotional Marketing on 
Consumers” Purchase Intention[D]. Hefei: Anhui University， 
2016.) 

史 伟 , 王 洪 伟 , 何 绍 义 . 基于 微 博 情感 分 析 的 电影 票房 预 
测 研究 [可 华中 师范 大 学 学 报 : 自然 科学 版 ，2015，49(]): 
66-72. (Shi Wei, He Shaoyi. 


Wang Hongwei, Study on 
Predicting Movie Box Office Based on Sentiment Analysis of 
Micro-blog[J]. 
Natural Sciences, 2015, 49(1): 66-72.) 

李 鸣 ， 吴 波 , 宋 阳 , 等 . 细 粒 度 情 感 分 析 的 酒店 评论 研究 
中. 传感器 与 微 系 统 , 2016, 35(12): 41-43, 47. (Li Ming, Wu 


Journal of HuaZhong Normal University: 


Bo, Song Yang, et al. Research on Hotel Reviews Based on 
Fine-grained Sentiment Analysis [J]. 
Microsystem Technologies, 2016, oe 41-43, 47.) 

钱 慎 一 , 杨 铁 松 . 基于 微 博 电 影评 论 的 情感 分 析 研 究 []. 
现代 计算 机 (专业 版 )，2017(5): 48-51. (Qian Shenyi, Yang 
Tiesong. Research on Emotional 
Micro-Blog Film Criticism [J]. Modern Computer, 2017(5): 
48-51.) 

赵 晓 航 . 基于 情感 分 析 与 主题 分 析 的 “后 微 博 ”" 时 代 突 发 事 
件 政府 信息 公开 研究 一 一 以 新 浪 微 博 “ 天 津 爆炸 ”话题 为 例 
中. 图 书 情报 工作 , 2016, 60(20): 104-111. (Zhao Xiaohang. 


Transducer and 


Analysis Based on 


The Study on Government News Release in the Era of 
Post-microblog Based on Sentiment Analysis and Subject 
Analysis: A Case Study of the “Tianjin Explosion” on Sina 
Microblog[J]. Library and Information Service, 2016, 60(20): 
104-111.) 
缪 冯 一 . 基于 文本 数据 挖掘 的 微 博 情 感 分 析 与 监控 系统 
[D]. 杭州 : 浙江 工业 大 学 ，2015. (Miu Ruyi. Microblog 
Sentiment Analysis and Monitoring System Based on Text 
Data Mining [DI]. 
Technology, 2015.) 
淮安 顾 . 微 博 热 点 事件 的 公众 情感 分 析 研 究 [D]. 北京 : 清 
华 大 学 , 2013. (Cui Anqi.Study on Public Sentiment Analysis 


Hangzhou: Zhejiang University of 


of Events in Microblogs [D]. Beijing: Tsinghua University, 


2013.) 
陈 建 美 . 中 文 情感 词汇 本 体 的 构建 及 其 应 用 [D]. 大 连 ; 大 


连理 工大 学 ,2009. (Chen Jianmei. The Construction and 


201712.01390v1 


chinaXiv 


[26] 


[27] 


[28] 


[29] 


[30] 


[31] 


[32] 


[33] 


Application of Chinese Emotion Word Ontology[D]. Dalian: 
Dalian University of Technology, 2009.) 

高 宁 . 现代 汉语 程度 副词 与 否定 副词 共 现 的 认 知 研究 [D]. 
长 春 : 吉林 大 学 , 2013. (Gao Ning. A Cognitive Study on the 
Combination of the Degree Adverb and the Negative Adverb 


in Mandarin Chinese [D]. Changchun: Jilin University, 2013.) 
施 寒 潇 . 细 粒 度 情 感 分 析 研 究 [D]. 苏州 : 苏州 大 学 ，2013. 
(Shi Hanxiao.Research on Fine-grained Sentiment Analysis 
[D]. Suzhou: Soochow University, 2013.) 

陈 国 兰 . 基于 情感 词典 与 语义 规则 的 微 博 情感 分 析 [J]， 情 
报 探索 ， 2016(2): 1-6. (Chen Guolan. Microblog Sentiment 
Analysis Basing on Emotion Dictionary and Semantic 
Rule[J]. Information Research, 2016(2): 1-6.) 

李 婷 婷 ， 姬 东 鸿 . 基于 SVM 和 CRF 多 特征 组 合 的 微 博 情感 
分 析 四. 计算 机 应 用 研究 ，2015，32(4): 978-981. (Li 
Tingting，Ji Donghong. Sentiment Analysis of Micro-blog 
Based on SVM and CRF Using Various Combinations of 


Features[J]. Application Research of Computers, 2015, 32(4): 
978-981.) 

马 秉 楠 ， 黄 永峰 , 邓 北 星 . 基于 表情 符 的 社交 网 络 情绪 词 
典 构 造 [可 . 计算 机 工程 与 设计 ，2016，37(5): 1129-1133. 
(Ma Bingnan，Huang Yongfeng, Deng Beixing. Generating 


Sentiment Lexicon of Online Social Network Based on 
Emotions[J]. Computer Engineering and Design, 2016, 37(5): 
1129-1133.) 

答 连 超 .互联 网 评论 文本 情感 分 析 研 究 [D]. 济南 : 山东 大 


学 , 2015. (Cui Lianchao. Research on Internet Review Text 


Sentiment Analysis [D]. Ji’nan: Shandong University, 2015.) 
郑 诚 ， 杨 希 ， 张 吉文. 结合 情感 词典 与 规则 的 微 博 情感 极 
性 分 类 方法 [J]. 电脑 知识 与 技术 , 2014, 10(13): 3111-3113， 
3123. (Zheng Cheng, Yang Xi, Zhang Jigeng. Combining 


Emotional Dictionary and Rules of Microblogging Emotional 
Polarity Classification Method [J]. Computer Knowledge and 
Technology, 2014, 10(13): 3111-3113, 3123.) 

汪 会 琴 , 胡 如 英 , 武海 滨 , 等. 2 型 糖尿 病 报告 发 病 率 研究 
进展 四. 浙江 预防 医学 ，2016，28(1): 37-39, 57. (Wang 
Huiqin, Hu Ruying, Wu Haibin, et al. Research Progress on 
2 Diabetes Mellitus[J]. 


Incidence of Type Zhejiang 


ChinaXiv 合 作 期 刊 


总 第 7 期 2017 年 第 7 期 


Preventive Medicine, 2016, 28(1): 37-39, 57.) 

[34] Li G, Hoi S C H, Chang K, et al. Microblogging Sentiment 
Detection by Collaborative Online Learning[C]//Proceedings 
of the 2010 IEEE International Conference on Data Mining, 
Sydney, Australia. USA: IEEE, 2010: 893-898. 


敦 欣 弄 : 设计 方案 , 进行 实验 , 起 草 并 修改 论文 ; 
张 云 秋 : 确定 论文 选 题 , 完善 研究 方案 , 论文 最 终 版 本 修订 ; 
杨 铠 西 : 数据 预 处 理 , 分 析 功 能 的 编程 实现 。 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 由 作者 自 存储 , E-mail: 568977858@qq.com。 

[1] 敦 欣 卉 . 7 类 药物 情感 分 析 结 果 .zip. 利用 本 文 方法 对 7 类 药 
物 进行 情感 分 析 的 结果 . 
2] 敦 欣 开 .7 类 药物 人 工分 类 结果 .zip. 3 名 工作 人 员 对 7 类 药物 
情感 进行 标注 的 最 终结 果 . 
3] 敦 欣 弄 . 7 类 药物 数据 .zip. 从 微 博 上 爬 取 的 含有 2 型 糖尿 病 
7 类 常用 药物 名 称 的 微 博 内 容 . 
4] 敦 欣 弄 . 表情 符号 词典 .xlsx， 所 构建 的 包含 39 个 表情 符号 的 
表情 词典 . 
5] 敦 欣 弄 . 表情 符号 词典 PMI 结果 .xlsx. 39 个 表情 符号 的 PMI 
值 列表 . 
6] 敦 欣 齐 . 表情 符号 词典 构建 数据 .zip. 从 微 博 上 所 扑 取 的 含 
有 39 个 表情 符号 的 短文 本 . 
7] 敦 欣 齐 . 高 频 特 征 词 情感 分 析 结 果 .zip. 利用 本 文 方法 对 17 
个 高 频 特 征 词 进行 情感 分 析 的 结 明 
8] 敦 欣 卉 . 高 频 词 微 博 数据 .zip. 含有 17 个 高 频 词 的 微 博文 本 . 
9] 敦 欣 卉 . 情感 词汇 本 体 .xlsx. 大 连理 工大 学 情感 词汇 本 体 库 . 


7 


收 稿 日 期 : 2017-05-31 
收 修改 稿 日 期 : 2017-07-11 


Data Analysis and Knowledge Discovery 


Fine-grained Sentiment Analysis Based on Weibo 


Dun Xinhuil Zhang Yungqiu! Yang Kaixi 
!(School of Public Health, Jilin University Changchun 130021, China) 
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Abstract: [Objective] This paper conducts a fine-grained sentiment analysis of Weibo posts by dividing the sentiments 
into eight categories and calculating their intensity values. [Methods] First we analyzed the Weibo corpus to construct 
the question word list. Besides the seven sentiments defined by DUTIR, we added “suspected ”to the list. Then, we used 
the Pointwise Mutual Information method, the impacts of negative words and the degree adverbs to construct the 
expression Symbol dictionary. We employed Python to retrieve the needed data from Weibo, and applied the jiebaR 
package to segment the words. Finally, we classified the sentiments and calculated their intensity. [Results] We got the 
proportion of eight sentiment categories and sentiment intensity of commonly used drugs for diabetes. The Precision 
values of “angry” and “sad” were the highest (85.73% and 83.05%), while the Recall and F values of “happy” and 
“like” were the highest (more than 81%). The Precision, Recall and F values of “suspected” were 77.33%, 78.58% and 
77.95% respectively. [Limitations] The sentiment dictionary needs to be expanded. [Conclusions] The proposed model 
could analyze the sentiment of Weibo Posts more effectively than traditional methods. 


Keywords: Microblog Fine-grained Sentiment Analysis Drug 


BBC Monitoring 加 入 OpenAthens 联盟 以 扩展 全 球 访问 


近日 , BBC Monitoring 加 入 了 OpenAthens 联盟 ,进一步 扩展 其 大 学 和 其 他 国际 组 织 的 单 点 登录 选择 ,， 这些 大 学 和 国际 组 
织 将 以 全 球 150 多 个 国家 的 多 种 语言 访问 BBC Monitoring 的 广播 、 新 闻 和 媒体 资源 。 

加 入 OpenAthens 联盟 将 使 BBC Monitoring 能 够 在 全 球 拓展 其 商业 客户 群 。 其 商业 客户 目前 包括 : 媒体 组 织 、 外 国政 府 、 
非 政府 组 织 、 大 学 、 大 使 馆 、 新 闻 机 构 、 智 库 等 。 

“向 英国 和 其 他 国家 的 高 校 提供 服务 是 我 们 的 商业 战略 。OpenAthens 意味 着 我 们 可 以 为 那些 希望 为 用 户 批量 启用 单 点 登 
录 的 客户 提供 简单 又 经 过 身份 验证 的 访问 。 添 加 OpenAthens 为 英国 以 外 的 大 学 访问 BBC Monitoring 的 订阅 服务 提供 了 男 一 
个 选择 。”BBC Monitoring 业务 发 展 总 监 Markus Ickstadt 表示 。 

BBC Monitoring 为 BBC( 英 国 广播 公司 ) 在 英国 和 全 球 的 新 闻 和 节目 团队 英国 政府 以 及 众多 商业 客户 提供 服务 ; 是 BBC 
世界 服务 集团 的 一 部 分 , 成 立 于 1939 年 ， 目 前 可 以 通过 多 种 语言 跟踪 150 多 个 国家 ,并 利用 本 地 渠道 来 过 滤 、 翻 译 和 报告 突 
发 新 闻 、 媒 体 行为 和 新 兴 趋 势 。 

Eduserv 是 一 家 位 于 英国 巴 斯 的 非 营 利 IT 服务 公司 , OpenAthens 是 其 一 部 分 , 提供 涵盖 身份 和 访问 管理 、 托 管 云 服务 、 
网 络 弹 性 和 应 用 程序 集成 的 一 系列 服务 。OpenAthens 提 殿 身份 和 访问 管理 解决 方案 并 为 OpenAthens 联盟 的 成 员 提 供 支 持 
服务 。 来 自 46 个 国家 的 400 多 个 组 织 的 全 球 400 多 万 用 户 受益 于 OpenAthens。 

(编译 自 : http://www.bbc.co.uk/mediacentre/latestnews/2017/bbc-monitoring-openathens) 
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